Label noise is ubiquitous in various machine learning scenarios such as self-labeling with model predictions and erroneous data annotation. Many existing approaches are based on heuristics such as sample losses, which might not be flexible enough to achieve optimal solutions. Meta learning based methods address this issue by learning a data selection function, but can be hard to optimize. In light of these pros and cons, we propose Selection-Enhanced Noisy label Training (SENT) that does not rely on meta learning while having the flexibility of being data-driven. SENT transfers the noise distribution to a clean set and trains a model to distinguish noisy labels from clean ones using model-based features. Empirically, on a wide range of tasks including text classification and speech recognition, SENT improves performance over strong baselines under the settings of self-training and label corruption.
translated by 谷歌翻译
除了在经典图像压缩编解码器上实现较高的压缩效率外,还可以通过其他侧面信息(例如,从同一场景的不同角度)改进深层图像压缩。为了更好地利用分布式压缩方案下的侧面信息,现有方法(Ayzik和Avidan 2020)仅在图像域上实现匹配的补丁,以解决由查看点差异引起的视差问题。但是,在图像域上匹配的补丁匹配对由不同的视角引起的比例,形状和照明的差异并不强大,也无法充分利用侧面信息图像的丰富纹理信息。为了解决此问题,我们建议在分布式图像压缩模型的解码器上充分利用多尺度特征域贴片匹配(MSFDPM)。具体而言,MSFDPM由侧面信息特征提取器,多尺度特征域补丁匹配模块和多尺度特征融合网络组成。此外,我们重复使用从浅层层进行斑点相关性,以加速深层的贴片匹配。最后,我们认为,与图像域(Ayzik和Avidan 2020)的贴片匹配方法相比,在多尺度特征域中的匹配进一步提高了压缩率约20%。
translated by 谷歌翻译
尽管在生成对抗网络(GAN)的潜在空间中,语义发现迅速发展,但现有方法要么仅限于找到全局属性,要么依靠许多细分掩码来识别本地属性。在这项工作中,我们提出了一种高效的算法,以分解甘恩学到的关于任意图像区域的潜在语义。具体而言,我们重新审视了预先训练的gan的局部操纵任务,并将基于区域的语义发现作为双重优化问题。通过适当定义的广义雷利商,我们设法解决了这个问题,而无需任何注释或培训。对各种最先进的GAN模型的实验结果证明了我们的方法的有效性,以及它优于先前艺术在精确控制,区域鲁棒性,实施速度和使用简单性方面的优势。
translated by 谷歌翻译
表示标签分布作为一个热量矢量是培训节点分类模型中的常见做法。然而,单热表示可能无法充分反映不同类别中节点的语义特征,因为某些节点可以在其他类中的邻居语义上靠近其邻居。由于鼓励在对每个节点进行分类时,鼓励模型分配完全概率,因此会导致过度自信。虽然具有标签平滑的培训模型可以在某种程度上缓解此问题,但它仍然无法捕获图形结构隐含的节点的语义特征。在这项工作中,我们提出了一种新颖的SAL(\ Textit {Security-Aware标签平滑})方法作为流行节点分类模型的增强组件。 SAL利用图形结构来捕获连接节点之间的语义相关性并生成结构感知标签分配以替换原始的单热标签向量,从而改善节点分类性能而不推广成本。七节点分类基准数据集的广泛实验揭示了我们对改进转膜和归纳节点分类的含量的有效性。经验结果表明,SALS优于标签平滑方法,增强节点分类模型以优于基线方法。
translated by 谷歌翻译
用于单视网型3D重建(SVR)的神经网络(NN)已经获得了普及。最近的工作指出,对于SVR,大多数尖端NNS在重建看不见的对象时具有有限的性能,因为它们主要依赖于识别(即,基于分类的方法)而不是形状重建。要深入了解这个问题,我们对NNS更倾向识别重建的何时以及为什么提供系统的研究,反之亦然。我们的发现表明,确定识别与重建的主要因素是如何分散训练数据。因此,我们介绍了一个新的数据驱动度量的分散评分,以量化这种前导因素并研究其对NNS的影响。我们假设当训练图像更加分散时,NNS朝向识别偏置,并且训练形状较少分散。支持我们的假设,通过我们的合成和基准数据集的实验证明了分散评分。我们表明,拟议的指标是分析重建质量的主要方法,并提供除了传统的重建分数之外的新颖信息。
translated by 谷歌翻译
We study the smooth minimax optimization problem $\min_{\bf x}\max_{\bf y} f({\bf x},{\bf y})$, where $f$ is $\ell$-smooth, strongly-concave in ${\bf y}$ but possibly nonconvex in ${\bf x}$. Most of existing works focus on finding the first-order stationary points of the function $f({\bf x},{\bf y})$ or its primal function $P({\bf x})\triangleq \max_{\bf y} f({\bf x},{\bf y})$, but few of them focus on achieving second-order stationary points. In this paper, we propose a novel approach for minimax optimization, called Minimax Cubic Newton (MCN), which could find an $\big(\varepsilon,\kappa^{1.5}\sqrt{\rho\varepsilon}\,\big)$-second-order stationary point of $P({\bf x})$ with calling ${\mathcal O}\big(\kappa^{1.5}\sqrt{\rho}\varepsilon^{-1.5}\big)$ times of second-order oracles and $\tilde{\mathcal O}\big(\kappa^{2}\sqrt{\rho}\varepsilon^{-1.5}\big)$ times of first-order oracles, where $\kappa$ is the condition number and $\rho$ is the Lipschitz continuous constant for the Hessian of $f({\bf x},{\bf y})$. In addition, we propose an inexact variant of MCN for high-dimensional problems to avoid calling expensive second-order oracles. Instead, our method solves the cubic sub-problem inexactly via gradient descent and matrix Chebyshev expansion. This strategy still obtains the desired approximate second-order stationary point with high probability but only requires $\tilde{\mathcal O}\big(\kappa^{1.5}\ell\varepsilon^{-2}\big)$ Hessian-vector oracle calls and $\tilde{\mathcal O}\big(\kappa^{2}\sqrt{\rho}\varepsilon^{-1.5}\big)$ first-order oracle calls. To the best of our knowledge, this is the first work that considers the non-asymptotic convergence behavior of finding second-order stationary points for minimax problems without the convex-concave assumptions.
translated by 谷歌翻译
已经显示了生成的对抗网络(GaN)的潜在空间在某些子空间内编码丰富的语义。为了识别这些子空间,研究人员通常从合成数据的集合分析统计信息,并且所识别的子空间倾向于在全局控制图像属性(即,操纵属性导致整个图像的变化)。相比之下,这项工作引入了低秩的子空间,使得GaN生成更精确地控制。具体地,给定任意图像和一个感兴趣区域(例如,面部图像的眼睛),我们设法将潜在空间与雅各比矩阵相关联,然后使用低秩分解来发现可转向潜在子空间。我们的方法有三种可区分优势,可以恰当地称为低利纳诺。首先,与现有工作中的分析算法相比,我们的雅各比人的低级别分解能够找到属性歧管的低维表示,使图像编辑更精确和可控。其次,低级别分子化自然地产生空间的属性,使得在其内移动潜在的代码仅影响感兴趣的外部区域。因此,可以通过将属性向量投影到空空间中来简单地实现本地图像编辑,而不依赖于现有方法所做的空间掩模。第三,我们的方法可以从一个图像中鲁布布地与本地区域一起使用,以进行分析,但概括到其他图像,在实践中易于使用。关于各种数据集培训的最先进的GaN模型(包括Stylegan2和Biggan)的大量实验证明了我们的LowRankaN的有效性。
translated by 谷歌翻译
持续学习依次解决学习不同任务的设置。尽管以前的许多解决方案,但大多数仍然遭受重大忘记或昂贵的记忆成本。在这项工作中,针对这些问题,我们首先通过信息理论的镜头来研究持续学习过程,并观察到在学习时从前一个任务中的参数丢失的遗忘。新任务。从这个角度来看,我们提出了一种名为位级信息保留(BLIP)的新的连续学习方法,其通过更新位电平的参数来保留模型参数的信息增益,这可以用参数量化方便地实现。更具体地,BLIP首先列举具有对新输入任务的权重量化的神经网络,然后估计由任务数据提供的每个参数上的信息增益,以确定要冻结的比特以防止遗忘。我们进行广泛的实验,从分类任务到加强学习任务,结果表明,我们的方法更好地生成了与以前最先进的结果相比的结果。实际上,昙花一现接近零忘记,同时只需要在连续学习中需要恒定的记忆开销。
translated by 谷歌翻译
探讨了语言建模流行的变形金刚,用于近期解决视觉任务,例如,用于图像分类的视觉变压器(VIT)。 VIT模型将每个图像分成具有固定长度的令牌序列,然后应用多个变压器层以模拟它们的全局关系以进行分类。然而,当从像想象中的中型数据集上从头开始训练时,VIT对CNNS达到较差的性能。我们发现它是因为:1)输入图像的简单标记未能模拟相邻像素之间的重要局部结构,例如边缘和线路,导致训练采样效率低。 2)冗余注意骨干骨干设计对固定计算预算和有限的训练样本有限的具有限制性。为了克服这些限制,我们提出了一种新的令牌到令牌视觉变压器(T2T-VIT),它包含1)层 - 明智的代币(T2T)转换,通过递归聚合相邻来逐步地结构于令牌到令牌。代币进入一个令牌(令牌到令牌),这样可以建模由周围令牌所代表的本地结构,并且可以减少令牌长度; 2)一种高效的骨干,具有深度狭窄的结构,用于在实证研究后CNN建筑设计的激励变压器结构。值得注意的是,T2T-VIT将Vanilla Vit的参数计数和Mac减少了一半,同时从想象中从头开始训练时,改善了超过3.0 \%。它还优于Endnets并通过直接培训Imagenet训练来实现与MobileNets相当的性能。例如,T2T-VTO与Reset50(21.5M参数)的可比大小(21.5M参数)可以在图像分辨率384 $ \ Times 384上实现83.3 \%TOP1精度。 (代码:https://github.com/yitu-opensource/t2t-vit)
translated by 谷歌翻译
Existing 3D-aware image synthesis approaches mainly focus on generating a single canonical object and show limited capacity in composing a complex scene containing a variety of objects. This work presents DisCoScene: a 3Daware generative model for high-quality and controllable scene synthesis. The key ingredient of our method is a very abstract object-level representation (i.e., 3D bounding boxes without semantic annotation) as the scene layout prior, which is simple to obtain, general to describe various scene contents, and yet informative to disentangle objects and background. Moreover, it serves as an intuitive user control for scene editing. Based on such a prior, the proposed model spatially disentangles the whole scene into object-centric generative radiance fields by learning on only 2D images with the global-local discrimination. Our model obtains the generation fidelity and editing flexibility of individual objects while being able to efficiently compose objects and the background into a complete scene. We demonstrate state-of-the-art performance on many scene datasets, including the challenging Waymo outdoor dataset. Project page: https://snap-research.github.io/discoscene/
translated by 谷歌翻译